智能论文笔记

Towards Higher-order Topological Consistency for Unsupervised Network Alignment

Qingqiang Sun , Xuemin Lin , Ying Zhang , Wenjie Zhang , Chaoqi Chen

分类：机器学习

2022-08-26

旨在识别不同网络中的相应节点的网络对齐任务对许多随后的应用程序具有重要意义。不需要标记的锚点链接，无监督的对准方法吸引了越来越多的关注。但是，由现有方法定义的拓扑一致性假设通常是低阶且准确的，因为仅考虑边缘式拓扑模式，这在无监督的环境中尤其有风险。为了重新定位对齐过程从低阶到高阶拓扑一致性的重点，在本文中，我们提出了一个名为HTC的完全无监督的网络对齐框架。提出的高阶拓扑一致性是基于边缘轨道制定的，将其合并到图形卷积网络的信息聚合过程中，以便将对齐一致性转换为节点嵌入的相似性。此外，编码器经过培训为多轨了解，然后进行完善以识别更受信任的锚点链接。通过整合所有不同的一致性顺序，可以全面评估节点对应关系。 {除了合理的理论分析外，所提出方法的优越性还通过广泛的实验评估得到了经验证明。在三对现实世界数据集和两对合成数据集上，我们的HTC始终以最少或可比的时间消耗优于各种各样的无监督和监督方法。由于我们的多轨道感知训练机制，它还表现出对结构噪声的鲁棒性。

translated by 谷歌翻译

HTML版本

Revising Image-Text Retrieval via Multi-Modal Entailment

Xu Yan , Chunhui Ai , Ziqiang Cao , Min Cao , Sujian Li , Wenjie Chen , Guohong Fu

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-08-22

出色的图像文本检索模型取决于高质量标记的数据。尽管现有图像文本检索数据集的构建者努力确保标题与链接的图像匹配，但它们无法阻止字幕拟合其他图像。我们观察到，如此多的匹配现象在广泛使用的检索数据集中非常普遍，其中一个标题可以描述多达178张图像。这些较大的匹配失误数据不仅使训练中的模型混淆，而且还会削弱评估精度。受视觉和文本核心任务的启发，我们提出了一个多模式的核心分类器，以确定句子是否由图像和其链接的字幕所带来。随后，我们通过将这些需要的字幕添加为图像的附加标签来修改图像文本检索数据集，并制定通用可变率策略，以教授检索模型以区分所需的字幕和其他负样本。在实验中，我们手动注释了一个需要校正的图像文本检索数据集进行评估。结果表明，所提出的元素分类器可实现约78％的精度，并始终提高图像文本检索基线的性能。

translated by 谷歌翻译

Learning Generalizable Latent Representations for Novel Degradations in Super Resolution

Fengjun Li , Xin Feng , Fanglin Chen , Guangming Lu , Wenjie Pei

分类：计算机视觉

2022-07-25

盲目图像超分辨率（SR）的典型方法通过直接估算或学习潜在空间中的降解表示来处理未知的降解。这些方法的一个潜在局限性是，他们假设可以通过整合各种手工降解（例如，比科比克下采样）来模拟未知的降解，这不一定是正确的。现实世界中的降解可能超出了手工降解的模拟范围，这被称为新型降解。在这项工作中，我们建议学习一个潜在的降解空间，可以将其从手工制作的（基本）降解中推广到新的降解。然后将其在此潜在空间中获得的新型降解的表示形式被利用，以生成与新型降解一致的降级图像，以构成SR模型的配对训练数据。此外，我们执行各种推断，以使潜在表示空间中的降解后降解与先前的分布（例如高斯分布）相匹配。因此，我们能够采样更多的高质量表示以进行新的降级，以增加SR模型的训练数据。我们对合成数据集和现实数据集进行了广泛的实验，以验证我们在新型降解中盲目超分辨率的有效性和优势。

translated by 谷歌翻译

Few-Shot Object Detection by Knowledge Distillation Using Bag-of-Visual-Words Representations

Wenjie Pei , Shuang Wu , Dianwen Mei , Fanglin Chen , Jiandong Tian , Guangming Lu

分类：计算机视觉

2022-07-25

虽然基于微调对象检测的基于微调的方法已经取得了显着的进步，但尚未得到很好的解决的关键挑战是基本类别的潜在特定于类别的过度拟合，并且针对新颖的类别的样本特异性过度拟合。在这项工作中，我们设计了一个新颖的知识蒸馏框架，以指导对象探测器的学习，从而抑制基础类别的前训练阶段的过度拟合，并在小型课程上进行微调阶段。要具体而言，我们首先提出了一种新颖的位置感知的视觉袋模型，用于从有限尺寸的图像集中学习代表性的视觉袋（BOVW），该模型用于基于相似性来编码常规图像在学习的视觉单词和图像之间。然后，我们基于以下事实执行知识蒸馏，即图像应在两个不同的特征空间中具有一致的BOVW表示。为此，我们独立于对象检测的特征空间预先学习特征空间，并在此空间中使用BOVW编码图像。可以将图像的BOVW表示形式视为指导对象探测器的学习：对象检测器的提取特征对同一图像的提取特征有望通过蒸馏知识得出一致的BOVW表示。广泛的实验验证了我们方法的有效性，并证明了优于其他最先进方法的优势。

translated by 谷歌翻译

Multi-Faceted Distillation of Base-Novel Commonality for Few-shot Object Detection

Shuang Wu , Wenjie Pei , Dianwen Mei , Fanglin Chen , Jiandong Tian , Guangming Lu

分类：计算机视觉

2022-07-22

几次射击对象检测的大多数现有方法都遵循微调范式，该范式可能假设可以通过众多样本的基本类别学习并将其隐式转移到具有限量样本的新颖类中，从而将类别的概括性知识隐含地转移到有限的类别中。舞台培训策略。但是，这不一定是正确的，因为对象检测器几乎无法在没有明确的建模的情况下自动区分类别不合时宜的知识和特定于类的知识。在这项工作中，我们建议在基础和新颖类之间学习三种类型的类不足的共同点：与识别相关的语义共同点，与定位相关的语义共同点和分布共同点。我们基于内存库设计了一个统一的蒸馏框架，该框架能够共同有效地进行所有三种类型的共同点。广泛的实验表明，我们的方法可以很容易地集成到大多数现有的基于微调的方法中，并始终如一地通过大幅度提高性能。

translated by 谷歌翻译

Global-Local Stepwise Generative Network for Ultra High-Resolution Image Restoration

Xin Feng , Haobo Ji , Wenjie Pei , Fanglin Chen , David Zhang , Guangming Lu

分类：计算机视觉

2022-07-16

虽然对图像背景恢复的研究从常规大小的降级图像恢复已经取得了显着的进步，但由于计算复杂性和记忆使用情况的爆炸式增长以及缺陷，恢复超高分辨率（例如4K）图像仍然是一项极具挑战性的任务。带注释的数据。在本文中，我们提出了一种用于超高分辨率图像恢复的新型模型，称为全局逐步生成网络（GLSGN），该模型采用涉及四个恢复途径的逐步恢复策略：三个局部途径和一条全球途径。本地途径着重于以局部但高分辨率的图像贴片的细粒度进行图像恢复，而全球途径则在缩放尺寸但完整的图像上执行图像恢复，以在全球视图中为本地途径提供线索包括语义和噪声模式。为了平滑这四个途径之间的相互协作，我们的GLSGN旨在确保在低级内容，感知注意力，恢复强度和高级语义方面的四个方面的跨道路一致性。作为这项工作的另一个主要贡献，我们还介绍了迄今为止的第一个超高分辨率数据集，以删除反射和降雨条纹，包括4,670个现实世界和合成图像。跨三个典型的图像背景修复任务进行的广泛实验，包括删除图像反射，删除图像雨条和图像去悬来表明我们的GLSGN始终优于最先进的方法。

translated by 谷歌翻译

GridTuner: Reinvestigate Grid Size Selection for Spatiotemporal Prediction Models [Technical Report]

Jiabao Jin , Peng Cheng , Lei Chen , Xuemin Lin , Wenjie Zhang

分类：机器学习

2022-01-10

随着交通预测技术的发展，时尚预测模型引起了学术界社区和工业的越来越多。然而，大多数现有的研究侧重于减少模型的预测误差，而是忽略由区域内空间事件的不均匀分布引起的错误。在本文中，我们研究了区域分区问题，即最佳网格尺寸选择问题（OGSS），其目的是通过选择最佳网格尺寸来最小化时空预测模型的真正误差。为了解决OGSS，我们通过最小化其上限来分析时空预测模型的真正误差的上限，并最大限度地减少真实误差。通过深入分析，我们发现当模型网格数量从1增加到最大允许值时，真正误差的上限将减少随后增加。然后，我们提出了两种算法，即三元搜索和迭代方法，自动找到最佳网格尺寸。最后，实验验证了预测误差是否具有与其上限相同的趋势，并且实际误差的上限相对于模型网格数量的上限的变化趋势将降低。同时，在一个情况下，通过选择最佳网格尺寸，可以提高最先进的预测算法的订单调度结果高达13.6％，这表明了我们在调整该区域上的方法的有效性用于时空预测模型的分区。

translated by 谷歌翻译

A General Framework for Debiasing in CTR Prediction

Wenjie Chu , Shen Li , Chao Chen , Longfei Xu , Hengbin Cui , Kaikui Liu

分类：人工智能

2021-12-06

大多数用于点击速率（CTR）预测的现有方法取决于超薄的假设，即点击概率是观察概率和相关概率的乘积。但是，由于这两个概率之间存在复杂相互作用，因此这些方法不能应用于其他场景，例如，查询自动完成（QAC）和路由推荐。我们提出了一般的脱结框架，而无需简化变量之间的关系，可以处理CTR预测中的所有场景。仿真实验表明：在最简单的情况下，我们的方法与最先进的方法保持了类似的AUC;在其他情况下，与现有方法相比，我们的方法实现了相当大的改进。同时，在网上实验中，框架也始终如一地提高了显着的改进。

translated by 谷歌翻译

CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow Estimation

Haisong Liu , Tao Lu , Yihui Xu , Jia Liu , Wenjie Li , Lijun Chen

分类：计算机视觉

2021-11-20

在本文中，我们研究了从同步2D和3D数据共同估计光流量和场景流的问题。以前的方法使用复杂的管道，将联合任务分成独立阶段，或以“早期融合”或“迟到的”方式“的熔断器2D和3D信息。这种单尺寸适合的方法遭受了未能充分利用每个模态的特征的困境，或者最大化模态互补性。为了解决这个问题，我们提出了一个新的端到端框架，称为Camliflow。它由2D和3D分支组成，在特定层之间具有多个双向连接。与以前的工作不同，我们应用基于点的3D分支以更好地提取几何特征，并设计一个对称的学习操作员以保险熔断致密图像特征和稀疏点特征。我们还提出了一种转换，以解决3D-2D投影的非线性问题。实验表明，Camliflow以更少的参数实现了更好的性能。我们的方法在Kitti场景流基准上排名第一，表现出以1/7参数的前一篇文章。代码将可用。

translated by 谷歌翻译

Pedestrian Detection by Exemplar-Guided Contrastive Learning

Zebin Lin , Wenjie Pei , Fanglin Chen , David Zhang , Guangming Lu

分类：计算机视觉

2021-11-17

行人检测的典型方法侧重于在拥挤的行人之间进行处理，或处理各种行人的各种鳞片。用大量外观多样性检测不同的行人剪影，不同观点或不同的敷料等行人仍然是一个至关重要的挑战。除了大多数现有方法，我们建议使用与学习特征空间中不同外观之间的行人之间的语义距离的方式进行对比学习以引导特征学习，以引导对比学习以引导特征学习。外观多样性，而行人和背景之间的距离最大化。为了促进对比学习的效率和有效性，我们构建具有代表性行人外观的示例性词典作为先验知识，以构建有效的对比训练对并因此引导对比学习。此外，通过测量提议与示例性词典之间的语义距离，进一步利用构建的示例性词典以评估推理期间的行人提案的质量。对白天和夜间行人检测的广泛实验验证了该方法的有效性。

translated by 谷歌翻译